N-GRPO: Mezcla de Vecinos a Nivel de Embedding para Optimización de Políticas
Descubre N-GRPO, una nueva estrategia de exploración que mejora el razonamiento matemático de LLMs mediante la mezcla inteligente de embeddings semánticos. Resultados consistentes en benchmarks.